智能论文笔记

ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human Activity Recognition in Videos

James Wensel , Hayat Ullah , Arslan Munir , Erik Blasch

分类：计算机视觉

2022-08-16

人类活动识别是计算机视觉中的新出现和重要领域，旨在确定个体或个体正在执行的活动。该领域的应用包括从体育中生成重点视频到智能监视和手势识别。大多数活动识别系统依赖于卷积神经网络（CNN）的组合来从数据和复发性神经网络（RNN）中进行特征提取来确定数据的时间依赖性。本文提出并设计了两个用于人类活动识别的变压器神经网络：一个经常性变压器（RET），这是一个专门的神经网络，用于对数据序列进行预测，以及视觉变压器（VIT），一种用于提取显着的变压器的变压器（VIT）图像的特征，以提高活动识别的速度和可扩展性。我们在速度和准确性方面提供了对拟议的变压器神经网络与现代CNN和基于RNN的人类活动识别模型的广泛比较。

translated by 谷歌翻译

Human Activity Recognition Using Cascaded Dual Attention CNN and Bi-Directional GRU Framework

Hayat Ullah , Arslan Munir

分类：计算机视觉 | 人工智能

2022-08-09

基于视觉的人类活动识别已成为视频分析领域的重要研究领域之一。在过去的十年中，已经引入了许多先进的深度学习算法，以识别视频流中复杂的人类行为。这些深度学习算法对人类活动识别任务显示出令人印象深刻的表现。但是，这些新引入的方法仅专注于模型性能或这些模型在计算效率和鲁棒性方面的有效性，从而导致其解决挑战性人类活动识别问题的提议中的偏差折衷。为了克服当代深度学习模型对人类活动识别的局限性，本文提出了一个计算高效但通用的空间级联框架，该框架利用了深层歧视性的空间和时间特征，以识别人类活动的识别。为了有效地表示人类行动，我们提出了有效的双重注意卷积神经网络（CNN）体系结构，该结构利用统一的通道空间注意机制来提取视频框架中以人为中心的显着特征。双通道空间注意力层与卷积层一起学会在具有特征图数量的物体的空间接收场中更加专注。然后将提取的判别显着特征转发到堆叠的双向封闭式复发单元（BI-GRU），以使用前进和后传球梯度学习，以实现长期时间建模和对人类行为的识别。进行了广泛的实验，其中获得的结果表明，与大多数当代动作识别方法相比，所提出的框架的执行时间的改善最高167倍。

translated by 谷歌翻译

A New Deep Boosted CNN and Ensemble Learning based IoT Malware Detection

Saddam Hussain Khan , Wasi Ullah

分类：计算机视觉 | 人工智能

2022-12-15

Security issues are threatened in various types of networks, especially in the Internet of Things (IoT) environment that requires early detection. IoT is the network of real-time devices like home automation systems and can be controlled by open-source android devices, which can be an open ground for attackers. Attackers can access the network, initiate a different kind of security breach, and compromises network control. Therefore, timely detecting the increasing number of sophisticated malware attacks is the challenge to ensure the credibility of network protection. In this regard, we have developed a new malware detection framework, Deep Squeezed-Boosted and Ensemble Learning (DSBEL), comprised of novel Squeezed-Boosted Boundary-Region Split-Transform-Merge (SB-BR-STM) CNN and ensemble learning. The proposed S.T.M. block employs multi-path dilated convolutional, Boundary, and regional operations to capture the homogenous and heterogeneous global malicious patterns. Moreover, diverse feature maps are achieved using transfer learning and multi-path-based squeezing and boosting at initial and final levels to learn minute pattern variations. Finally, the boosted discriminative features are extracted from the developed deep SB-BR-STM CNN and provided to the ensemble classifiers (SVM, M.L.P., and AdaboostM1) to improve the hybrid learning generalization. The performance analysis of the proposed DSBEL framework and SB-BR-STM CNN against the existing techniques have been evaluated by the IOT_Malware dataset on standard performance measures. Evaluation results show progressive performance as 98.50% accuracy, 97.12% F1-Score, 91.91% MCC, 95.97 % Recall, and 98.42 % Precision. The proposed malware analysis framework is helpful for the timely detection of malicious activity and suggests future strategies.

translated by 谷歌翻译

MARLIN: Masked Autoencoder for facial video Representation LearnINg

Zhixi Cai , Shreya Ghosh , Kalin Stefanov , Abhinav Dhall , Jianfei Cai , Hamid Rezatofighi , Reza Haffari , Munawar Hayat

分类：计算机视觉

2022-11-12

This paper proposes a self-supervised approach to learn universal facial representations from videos, that can transfer across a variety of facial analysis tasks such as Facial Attribute Recognition (FAR), Facial Expression Recognition (FER), DeepFake Detection (DFD), and Lip Synchronization (LS). Our proposed framework, named MARLIN, is a facial video masked autoencoder, that learns highly robust and generic facial embeddings from abundantly available non-annotated web crawled facial videos. As a challenging auxiliary task, MARLIN reconstructs the spatio-temporal details of the face from the densely masked facial regions which mainly include eyes, nose, mouth, lips, and skin to capture local and global aspects that in turn help in encoding generic and transferable features. Through a variety of experiments on diverse downstream tasks, we demonstrate MARLIN to be an excellent facial video encoder as well as feature extractor, that performs consistently well across a variety of downstream tasks including FAR (1.13% gain over supervised benchmark), FER (2.64% gain over unsupervised benchmark), DFD (1.86% gain over unsupervised benchmark), LS (29.36% gain for Frechet Inception Distance), and even in low data regime. Our codes and pre-trained models will be made public.

translated by 谷歌翻译

Thinking Hallucination for Video Captioning

Nasib Ullah , Partha Pratim Mohanta

分类：计算机视觉

2022-09-28

随着丰富的视觉表示和预训练的语言模型的出现，随着时间的推移，视频字幕持续不断改进。尽管性能有所提高，但视频字幕模型还是容易发生幻觉的。幻觉是指与原始材料分离的高度病理描述的产生。在视频字幕中，有两种幻觉：物体和动作幻觉。我们没有努力学习视频的更好代表，而是在这项工作中研究了幻觉问题的基本来源。我们确定了三个主要因素：（i）从预训练模型中提取的视觉特征不足，（ii）多模式融合过程中源和目标环境的影响不当，以及（iii）训练策略中的暴露偏见。为了减轻这些问题，我们提出了两种强大的解决方案：（a）在提取的视觉特征的基础上引入了在多标签设置中训练的辅助头，以及（b）添加上下文门，在融合过程中动态选择特征。视频字幕的标准评估指标衡量与地面真相标题的相似性，并且不能充分捕获对象和动作相关性。为此，我们提出了一个新的指标Coaha（标题对象和动作幻觉评估），该指标评估了幻觉的程度。我们的方法可以在MSR-Video到文本（MSR-VTT）和Microsoft研究视频描述语料库（MSVD）数据集上实现最先进的性能，尤其是通过大量的苹果酒得分。

translated by 谷歌翻译

Speech Forensics: Blind Voice Mimicry Detection

Sahar Al Ajmi , Khizar Hayat , Alaa M. Al Obaidi , Naresh Kumar , Munaf Najmuldeen , Baptiste Magnier

分类：人工智能 | 机器学习 | 神经与进化计算

2022-09-26

音频是人类交流最常用的方式之一，但与此同时，它很容易被欺骗人们滥用。随着AI的革命，几乎每个人都可以访问相关技术，从而使罪犯犯罪和伪造变得简单。在这项工作中，我们引入了一种深度学习方法，以开发一种分类器，该分类器将盲目地将输入音频分类为真实或模仿。提出的模型接受了从大型音频数据集提取的一组重要功能的培训，以获取分类器，该分类器已在不同音频的相同功能上进行了测试。为这项工作创建了两个数据集；所有英语数据集和混合数据集（阿拉伯语和英语）。这些数据集已通过GitHub提供，可在https://github.com/sass7/dataset上使用研究社区。为了进行比较，还通过人类检查对音频进行了分类，主题是母语人士。随之而来的结果很有趣，并且表现出强大的精度。

translated by 谷歌翻译

Energy Efficient Automatic Streetlight Controlling System using Semantic Segmentation

Md Sakib Ullah Sourav , Huidong Wang

分类：计算机视觉 | 人工智能

2022-09-18

这项研究旨在开发一种新型的路灯管理系统，该系统由电视电视（CCTV）摄像头安装的计算机视觉技术提供动力，该摄像头允许发光二极管（LED）路灯通过识别行人或车辆的存在，从而自动通过适当的亮度点亮。并在视频中通过语义图像细分在缺席的情况下对路灯进行了颠倒。

translated by 谷歌翻译

Hybrid Window Attention Based Transformer Architecture for Brain Tumor Segmentation

Himashi Peiris , Munawar Hayat , Zhaolin Chen , Gary Egan , Mehrtash Harandi

分类：计算机视觉

2022-09-16

由于MRI体积的强度在各机构之间是不一致的，因此必须将多模式MRI的通用特征提取到精确分段脑肿瘤。在这个概念中，我们提出了一个体积视觉变压器，遵循两种窗口策略，以提取精美特征和局部分配平滑度（LDS）在受虚拟对手训练（VAT）启发的模型训练过程中提取精美的特征和局部分配平滑度（LDS），以使模型可靠。我们在FETS Challenge 2022数据集上培训和评估了网络体系结构。我们在在线验证数据集上的性能如下：骰子相似性得分为81.71％，91.38％和85.40％； Hausdorff距离（95％）的14.81毫米，3.93毫米，11.18毫米，分别用于增强肿瘤，整个肿瘤和肿瘤核。总体而言，实验结果通过在每个肿瘤子区域的分割准确性中得出更好的性能来验证我们的方法的有效性。我们的代码实施公开可用：https：//github.com/himashi92/vizviva_fets_2022

translated by 谷歌翻译

Defense against Privacy Leakage in Federated Learning

Jing Wu , Munawar Hayat , Mingyi Zhou , Mehrtash Harandi

分类：机器学习 | 计算机视觉

2022-09-13

联邦学习（FL）提供了有希望的分布式学习范式，因为它试图通过不共享其私人培训数据来保护用户隐私。但是，最近的研究表明，FL容易受到模型反转攻击的影响，该攻击可以通过窃听共享梯度来重建用户的私人数据。现有的防御解决方案无法在更强烈的攻击中生存，并且在隐私和绩效之间表现不佳。在本文中，我们提出了一种直接而有效的防御策略，基于与隐藏数据相混淆敏感数据的梯度。具体而言，我们在迷你批次中更改一些样品，以模仿梯度水平的敏感数据。使用梯度投影技术，我们的方法试图在不牺牲FL性能的情况下模糊敏感数据。我们广泛的评估表明，与其他防御能力相比，我们的技术在保留FL性能的同时提供了最高水平的保护。我们的源代码位于存储库中。

translated by 谷歌翻译

Efficient Approximate Kernel Based Spike Sequence Classification

Sarwan Ali , Bikram Sahoo , Muhammad Asad Khan , Alexander Zelikovsky , Imdad Ullah Khan , Murray Patterson

分类：机器学习

2022-09-11

机器学习（ML）模型，例如SVM，用于分类和序列的聚类等任务，需要定义序列对之间的距离/相似性。已经提出了几种方法来计算序列之间的相似性，例如确切的方法计算$ k $ -s-mers（长度$ k $的子序列）之间的匹配数和估计成对相似性得分的近似方法。尽管精确的方法产生了更好的分类性能，但它们的计算成本很高，将其适用性限制在少量序列中。事实证明，近似算法更可扩展，并具有相当的性能（有时更好）确切方法 - 它们以“一般”方式设计用于处理不同类型的序列（例如音乐，蛋白质等）。尽管一般适用性是算法的所需属性，但在所有情况下都不是这种情况。例如，在当前的Covid-19（冠状病毒）大流行中，需要一种可以专门处理冠状病毒的方法。为此，我们提出了一系列方法来提高近似内核的性能（使用最小化和信息增益），以增强其预测性能PM冠状病毒序列。更具体地说，我们使用域知识（使用信息增益计算）和有效的预处理（使用最小值计算）来提高近似内核的质量，以对与不同变体相对应的冠状病毒峰值蛋白序列进行分类（例如，Alpha，Beta，Beta，Gamma）。我们使用不同的分类和聚类算法报告结果，并使用多个评估指标评估其性能。使用两个数据集，我们表明我们提出的方法有助于与医疗保健领域的基线和最先进的方法相比，有助于提高内核的性能。

translated by 谷歌翻译